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摘要 : 【 目的 ] 探索 微 博 用 户 标签 与 其 发 布 微 博 主题 之 间 的 潜在 关系 ,为 微 博 类 应 用 平台 的 主题 发 现 以 及 用 户 标 
签 自 动 推荐 服务 提供 参考 。[ 方法 ] 利用 疏 虫 程序 抓 取 “ 自 然 语 言 处 理 ” 领 域 新 浪 微 博 用 户 信息 及 微 博 ， 对 抓 取 的 
微 博 内容 进 行 分 词 并 对 用 户 标签 进行 语义 扩充 , 运用 编辑 距离 算法 将 标签 集 与 用 户 的 微 博 内 容 进行 匹配 。[ 结 
果 ] 对 匹配 结果 进行 抽样 分 析 , 发 现 新 浪 微 博 平 台 上 , 学 术 领 域 微 博 用 户 标签 和 用 户 所 发 微 博 内 容 具 有 一 定 的 相 
关 度 。[ 局 限 】 仅 对 学 术 领 域 和 新 浪 微 博 进行 相关 研究 , 研究 领域 和 应 用 平台 有 待 进一步 扩展 。[ 结论 】 微 博 标 
签 推 荐 系统 可 以 将 用 户 微 博 内 容 作为 标签 推荐 的 重要 数据 来 源 , 为 用 户 提供 更 有 和 针对 性 的 个 性 化 标签 ; 同时 ， 
在 对 微 博 内 容 进 行 主题 抽取 和 分 析 时 ,可 以 借助 微 博 用 户 标 签 优化 分 析 结 
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目前 , 社会 化 标签 系统 已 成 为 互联 网 最 流行 的 在 
线 服务 之 一 。 社 会 化 标签 在 社区 发 现 、 信 息 推荐 、 信 
息 集成 等 方面 均 具 有 重要 价值 。 微 博 用 户 标签 是 用 户 
依据 其 所 在 领域 或 个 性 爱好 给 自己 做 的 标记 ,在 体现 
个 性 化 特征 的 同时 也 给 微 博 好 友 推 荐 、 用 户 社 区 细 分 
等 提供 丰富 的 信息 来 源 , 微 博 用 户 标签 与 用 户 所 发 微 博 
有 一 定 关联 ,考察 微 博 用 户 标签 与 微 博 内 容 的 关联 程 
度 , 对 微 博 用 户 标签 自动 推荐 、 好 友 推 荐 、 博 文 标签 推 
荐 、 博 文 主题 检索 以 及 信息 推荐 服务 具有 重要 意义 。 

然而 , 目前 用 户 标签 与 微 博 内 容 之 间 相 关 程 度 的 
量化 研究 不 多 。 基 于 此 , 本 文 以 新 浪 微 博 中 的 学 术 型 
用 户 为 例 , 采集 用 户 的 标签 和 微 博 内 容 , 利用 这 些 数 
据 进 行 用 户 标签 与 微 博 内 容 关 联 度 的 统计 分 析 。 该 研 
究 可 进一步 丰富 信息 组 织 领 域 的 研究 内 容 ,并 为 微 博 
类 应 用 平台 的 用 户 标签 自动 推荐 服务 提供 参考 ,以 提 
高 微 博 应 用 的 服务 质量 。 


了 


2 研究 综述 


早期 , 标签 与 文献 相关 度 的 研究 主要 集中 在 网 
页 、 图 书 和 期 刊 论文 等 较为 正式 的 信息 资源 上 , 通过 
比较 标签 与 文献 主题 词 或 关键 词 的 相似 度 来 衡量 。 
2006 年 , Al-Khalifa 等 J 利用 Yahoo 关键 词 抽取 工具 抽 
取 网 页 关键 词 , 并 将 机 器 抽取 的 关键 词 集合 、 大 众 标 
注 的 标签 集合 、 专 业 标 引 人 员 的 标注 结果 三 者 进行 两 
两 匹配 , 结果 表明 ,专业 标 引 人 员 的 标注 结果 与 大 众 
标注 的 标签 的 重合 度 要 高 于 机 器 抽取 的 关键 词 。2008 
年 , 通过 对 比 主题 词 和 社会 化 标签 ，Rolla 发现 大 众 
标注 对 图 书 的 描述 更 加 全 面 细致 ， 能够 提高 书目 检索 
性 能 ， 而 主题 词 只 能 作为 图 书 基本 信息 的 标 引 。2009 
年 ,Thomas 等 器 的 相关 研究 也 得 出 了 相同 的 结论 -2010 
年 ，Lu 等 外 将 LibraryThing 上 用 户 对 图 书 标注 的 标签 
与 其 在 图 书馆 中 标注 的 Library of Congress Subject 
Headings 主题 词 进行 比较 , 发 现 用 户 标 注 的 标签 可 以 
提高 图 书馆 资源 的 可 获取 程度 。 同 年 , 活 婵 等 外 以 
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Delicio.us 为 平台 , 分 析 了 标签 和 关键 词 之 间 的 差别 ， 
发 现 娱乐 领域 和 学 术 领 域 的 标签 与 关键 词 的 相似 度 有 
很 大 差别 。 但 是 他 们 的 研究 范围 主要 针对 娱乐 和 学 术 
两 大 领域 , 选取 调查 的 数量 也 不 多 , 每 类 只 选取 了 十 
几 个 对 象 2011 年 , Kippt 以 学 术 期 刊 上 的 文章 为 数据 
来 源 ， 从 用 户 标签 、 作 者 关键 词 和 主题 词 这 三 方面 收 
集 学 术 期 刊 上 的 文章 , 通过 描述 性 统计 等 措施 发 现 关 
键 词 和 用 户 标签 的 匹配 存在 差异 。2012 年 ,Lee 等 中 
将 Medline 数据 库 中 231 388 篇 论文 的 MeSH 主题 词 
与 CiteULike 上 用 户 赋予 其 的 标签 进行 比较 ， 认 为 社 
会 化 标注 不 能 代 蔡 传统 的 受 控 标 引 。 

随 着 微 博 的 出 现 , 一 些 学 者 开始 以 其 为 对 象 ， 对 
微 博 内 容 和 标签 的 相关 性 进行 研究 。 黄 红 霞 等 由 以 微 
博 为 研究 对 象 , 通过 对 比 用 户 标 签 与 机 器 标签 , 发 现 
用 户 的 微 博 内 容 与 其 用 户 标签 有 一 定 关联 。 章 成 志 等 中 
以 腾讯 微 博 为 研究 对 象 ， 调研 用 户 标签 的 主题 表达 能 
力 , 结果 表明 该 平台 上 有 用 户 标 签 量 影响 力 较 高 的 用 
户 , 约 1/3 的 用 户 标签 与 微 博 内 容 关 键 词 有 关 。 邢 千 
里 等 所 假设 标签 和 微 博 都 能 够 表示 用 户 所 关注 的 主 
题 ， 对 用 户 标 签 内 容 与 微 博 内 容 之 间 的 关系 进行 研 
究 , 发 现 标 签 越 相 似 的 用 户 , 微 博 内 容 也 越 相似 。 

综 上 , 国内 外 学 者 已 经 对 文本 主题 和 标签 进行 了 
初步 研究 ,指出 在 特定 领域 中 文本 主题 和 标签 既 相 关 
又 存在 一 定 差异 。 目 前 此 类 研究 主要 集中 在 学 术 和 娱 
乐 这 两 大 领域 中 。 此 外 ,对 微 博 用 户 标 签 与 微 博 内 容 
关联 程度 定量 方面 的 研究 , 均 是 将 用 户 所 发 微 博 看 作 
一 个 集合 来 分 析 , 缺少 以 单条 微 博 为 对 象 的 研究 。 


3 研究 设计 
3.1 基本 思路 

本 文 利用 疏 虫 程序 抓 取 “自然 语言 处 理 ” 领 域 新 浪 
微 博 用 户 信息 及 微 博 , 通过 用 户 标签 与 用 户 微 博 博 文 
的 关联 分 析 以 探测 微 博 用 户 标 签 与 其 发 布 微 博 的 主题 
相关 性 ， 从 而 为 基于 用 户 标签 的 微 博 主题 识别 提供 可 
能 性 。 研 究 思路 如 图 1 所 示 。 

(1) 微 博 用 户 数据 采集 。 选 择 新 浪 微 博 “自然 语言 
处 理 ”" 领 域 的 用 户 为 研究 对 象 ， 以 “自然 语言 处 理 ”"“ 中 
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文 信息 处 理 ” 为 关键 词 , 通过 新 浪 微 博 API 接 口 抓 取 该 
领域 835 人 的 用 户 信息 以 及 735 359 条 微 博 数据 ,其 中 
用 户 信息 涉及 用 户 ID 、 了 昵称、 性别 、 用 户 标签 等 。 

(2) 用 户 标 签 扩 充 。 为 了 更 好 地 表示 出 与 标签 相 
关 领 域 的 内 容 ， 提 高 语义 匹配 效率 , 利用 清华 大 学 智 
能 技术 与 系统 国家 重点 实验 室 信 息 检索 组 梁 斌 博士 研 
发 的 词 库 API" 对 用 户 的 每 个 标签 进行 语义 扩充 , 得 到 
扩充 后 的 标签 语义 集 。 

(3) 微 博 数据 处 理 , 利 用 ICTCLAS” 分 词 系 统 对 微 
博 进行 分 词 ; 同时 , 在 分 词 时 将 用 户 标 签 和 标签 扩充 
词 作为 分 词 词典 导入 分 词 系 统 中 以 提高 分 词性 能 。 

(4) 用 户 标签 与 微 博 内 容 的 匹配 。 以 用 户 标 签 集 
作为 匹配 词典 ,标签 集 与 用 户 的 微 博 内 容 进 行 匹配 。 


编辑 距离 算法 
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图 1 研究 思路 


3.2 ”数据 处 理 

(1) 微 博 数据 预 处 理 

在 数据 准备 过 程 中 , 过 滤 标 签 数 为 0 的 用 户 , 最 
后 得 到 760 位 用 户 共 703 635 条 微 博 。 并 将 连续 转发 
和 评论 的 微 博 看 做 是 一 条 完整 的 微 博 来 处 理 。 

GD 利用 微 博 API 接 口 获取 用 户 自 定义 的 标签 ,此 次 获取 
835 个 用 户 ， 去 掉 标 签 量 为 0 的 用 户 , 得 到 760 位 用 户 共 
4 689 个 标签 ， 人均 标 签约 6 个 。 

@) 利 用 梁 斌 研发 的 词 库 API 对 用 户 的 每 个 标签 进行 语 
义 扩 充 。 表 1 所 示 为 “自然 语言 处 理 ” 的 部 分 扩充 结果 ,“ 人 工 
智能 ”为 扩充 词语 ,“0.184195” 表 示 词 语 相 关 程度 。 

图 将 抓 取 的 标签 和 标签 扩充 词 进行 处 理 ， 组 成 标签 集 ， 
为 分 词 和 博文 匹配 做 准备 。 
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表 1 微 博 用 户 原 标签 及 标签 扩充 结果 表 
用 户 标签 扩充 结果 
人 工 智 能 ，0.184195 机 器 翻译 ，0.148667 自然 
语言 理解 ，0.138319 中 文 信息 处 理 ，0.119663 
自然 语 ” 语音 识别 ，0.108192 计算 机 科学 ，0.108003 模 
言 处 理 式 识 别 ，0.105456 数据 挖 气 ，0.097883 智能 ， 


0.092609 中 文 分 词 , 0.089793 表达 式 , 0.057491 
哈尔滨 工业 大 学 , 0.057463 
(2) 微 博 博 文 处 理 
在 上 述 数据 基础 上 ， 对 用 户 博文 进行 分 词 ， 这 也 
是 文本 处 理 的 基础 。 目 前 ， 中 文 分 词 有 很 多 算法 和 工 
有 具 , 本 文通 过 ICTCLAS 分 词 系统 对 博文 分 词 ， 得 到 
结果 中 的 词 都 带 有 词性 标记 ， 比 如 名 词 /n、 动 词 、 
形容 词 /a。 而 用 户 标签 基本 以 名 词 为 主 , 例如 某 位 微 
博 用 户 给 自己 打 的 标签 : 情感 分 析 、 自 然 语 言 处 理 、 
数据 挖掘 、 文 本 分 类 、 模 式 识别 、 乒 乓 球 、 博 士 、 扬 
州 、 南 京 、 北 京 。ICTCLAS 分 词 系统 允许 用 户 导入 
词典 ,本 研究 将 上 面 得 到 的 标签 集 作为 分 词 词典 导 
入 到 分 词 系统 中 。 系 统 词典 的 格式 是 按 行 排列 ， 且 词 
语 后 带 有 词性 。 例 如 ,博士 n, 词语 和 词性 标识 之 间 
是 一 个 Tab 键 。 在 处 理 数据 时 , 将 所 有 的 标签 词 都 标 
识 为 tag。 加 入 标签 词典 和 未 加 入 词典 的 前 后 处 理 效 
果 对 比 ， 如 表 2 所 示 : 


表 2 微 博 内 容 分 词 结果 对 比 表 
比较 项 结果 
未 加 入 《/wkz MIT/x 自然 语言 /un 处 理 /un 讲座 /un 了》/wky 


标签 词典 这 会 /un 不 会 /un 成 为 /un 一 个 /mq 新 的 /un 高 等 /un 
小 A I 2A 批判 mn 法 /n 的 /udel 发 端 /un 呢 /y 
加 入 《/wkz MITm 自然 语言 处 理 /tag 讲座 加 ywky 这 


标签 词典 /rzv 会 人 不 /d 会 人 成 为 Vv 一 个 /mq 新 /a 的 /udel 
“高 等 bb 批判 /vn 法 /n 的 /adel 发 端 m 呢 /y 


可 以 看 出 , 加 入 标签 集 后 标签 集中 出 现 的 短语 会 
被 切 成 一 个 整体 , 未 加 入 标签 词典 的 分 词 结果 将 “ 自 
然 语 言 处 理 ” 切 分 成 “自然 语言 和“ 处理” 加 入 标签 集 
后 “自然 语言 处 理 ” 则 被 切 分 成 一 个 短语 。 
3.3 ”标签 -博文 关联 匹配 

对 分 词 后 的 博文 进行 处 理 , 在 微 博 数 据 准 备 中 共 
有 703 635 条 微 博文 本 和 23 487 条 用 户 标签 ， 对 这 些 
数据 按照 用 户 ID 进行 汇总 ,得 到 每 个 用 户 的 微 博 集合 
和 标签 集合 , 然后 进行 博文 匹配 。 

以 扩充 后 的 用 户 标签 集 作为 匹配 词典 , 将 标签 集 
与 用 户 的 微 博 内 容 进行 匹配 ， 以 实现 标签 词语 与 微 博 
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文本 语义 匹配 。 计 算 词语 之 间 语 义 相 似 度 的 方法 有 很 
多 ,比如 基于 语料库 中 、 基 于 词典 中 、 基 于 网 络 或 本 
体 W" 以 及 基于 编辑 距离 中 等 。 为 了 简化 处 理 ,本 研 
究 利 用 词 库 API 进行 标签 词 的 语义 扩充 ,同时 将 扩充 
词 引入 到 分 词 词典 中 提高 分 词 精 度 来 保障 前 期 处 理 的 
效果 ,从 而 在 后 期 词语 相似 匹配 时 选择 易于 使 用 的 编 
辑 距 离 算 法 来 进行 用 户 标签 集 与 用 户 微 博 内 容 的 匹 
配 。 编 辑 距离 (Edit Distance)ju5， 又 称 Levenshtein 距离 ， 
是 指 两 个 字 串 之 间 , 由 一 个 转 成 另 一 个 所 需 的 最 少 编 
辑 操作 次 数 。Sim(Tag(u), Word(v)): 表示 标签 u 和 微 博 
词语 v 之 间 的 相似 度 。 令 Tag(u)，Word(v) 的 编辑 距离 
为 Distance(Tag(u)，Word(v))，length(x) 表 示 x 的 长 度 ， 
则 Tag(u, Word(v) 之 间 的 相似 度 计算 公式 如 下 : 
Distance(Tag(u), Word(v)) 
Max(length(Tag(u)), length( Word(v))) 
(1) 

由 于 编辑 距离 反映 两 个 字符 串 的 绝对 差异 , 且 受 
词语 长 度 的 影响 , 因此 在 进行 数据 处 理 时 只 对 标签 长 
度 大 于 3 个 字符 的 词语 进行 相似 度 计算 , 长度 小 于 等 
于 3 的 标签 词语 则 进行 字面 匹配 。 通 过 反复 实验 验证 
发 现 当 相似 度 取 大 于 0.5 的 时 候 的 匹配 结果 最 为 理想 。 

以 微 博 ID 为 1065269410 的 用 户 为 例 来 说 明 标 签 
与 微 博 内 容 的 匹配 结果 。 结 果 如 表 3 所 示 : 


Sim(Tag(u),Word(v)) =1 


表 3 标签 与 博文 关联 分 析 示 例 
用 户 标签 原 博文 匹配 结果 
//@ 张 家 俊 MT: 赞 /Q@KJ 音 
乐 人 生 _ 王 亮 _ 自动 化 所 : 
、 转发 微 博 [ 谭 铁 牛 当选 英国 计算 机 视觉 
情感 分 析 自然 语 | I 
情感 分 析 自然 语 皇家 工程 院外 籍 院士 ] 9 月 模式 识别 
言 处 理 数据 挖掘 1 日 在 国 皇 工程 院 专 
妆 二 小 末 车 乓 业 让 
年 会 上 ,中 国 科学 院 副 秘 院士 


nn 

i 扬 书 长 谭 铁 牛 当选 英国 皇家 英国 
下 “全 工程 院外 籍 院士 。 谭 铁 牛 是 中 国 科学 院 

中 国 科 学 院 院士 ， 计算 机 

视觉 与 模式 识别 领域 专家 。 


在 匹配 结果 中 ,“ 模 式 识别 ”是 用 户 给 自己 打 的 标 
签 , “计算 机 视觉 "是 “模式 识别 ”的 扩充 词 。 “专家”、“ 院 
士 "“ 英 国 " “中 国 科学 院 ? 都 是 标签 词语 “博士 ”的 扩 
充 词 。 从 匹配 结果 “计算 机 视觉 模式 识别 专家 院士 
英国 中 国 科学 院 ” 中 可 以 看 到 “模式 识别 "是 这 类 用 户 
自己 打 的 标签 , 以 及 “计算 机 视觉 专家 院士 英国 
中 国 科学 院 ” 是 这 类 标签 扩充 词 。 


4 实验 结果 分 析 


4.1 专业 领域 用 户 添 加 标签 行为 的 分 析 
通过 对 用 户 添加 个 人 标签 行为 的 统计 , 得 到 如 图 
2 所 示 结 果 。835 位 用 户 中 有 760 位 用 户 至 少 添 加 了 一 
个 标签 , 只 有 75 位 用 户 没有 为 自己 添加 任何 标签 。 这 
与 邢 千 里 等 中 以 普通 用 户 为 研究 对 象 得 出 的 结果 有 和 较 
大 差别 ,其 得 出 在 普通 用 户 标 签 数 量 分 布 中 ， 有 
59.4% 的 用 户 没有 为 自己 添加 任何 标签 。 同时 ,本 研究 
还 发 现在 添加 标签 的 用 户 里 ,有 572 位 用 户 的 标签 数 
量 都 在 5 个 以 上 。 因 此 , 可 以 认为 专业 领域 用 户 更 乐 
意 为 自己 添加 标签 并 且 也 愿意 为 自己 添加 尽 可 能 多 的 
标签 来 获得 同行 关注 。 
200 


0 1 2 3 4 5 6 7 8 9 10 
标签 数量 


图 2 用 户 标签 数量 分 布 


同时 , 通过 对 “自然 语言 处 理 ” 领 域 的 用 户 添 加 的 
标签 内 容 进行 分 析 , 除去 抓 取 数 据 时 选取 的 关键 词 
“自然 语言 处 理 " 和 “中 文 信息 人 处理”( 其 中 “自然 语言 处 
理 ” 出 现 的 频次 为 622,“ 中 文 信息 处 理 ” 的 频次 为 35)， 
得 到 用 户 标 签 使 用 频次 前 20 的 标签 ,如 表 4 所 示 : 

表 4 用 户 标签 使 用 频次 


标签 使 用 频次 标签 使 用 频次 
机 器 学 习 260 美食 43 
数据 挖掘 190 80 后 39 
信息 检索 111 推荐 系统 39 
IT 数码 93 机 器 翻译 38 
互联 网 70 文本 挖掘 37 
搜索 引擎 68 IT 33 
NLP 64 计算 机 33 
旅游 59 大 数据 32 
计算 语言 学 50 电影 32 
人 工 智能 48 音乐 29 
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“旅游 "、“ 美 食 ”、“80 后 ”"、“ 电 影 " “音乐 "这 5 个 。 
这 些 标签 的 出 现 是 因为 此 类 标签 最 容易 作为 系统 推荐 
标签 出 现 , 不 用 手动 输入 ,而且 这 类 标签 对 于 用 户 具 
普 适 性 。 与 邢 千 里 等 i 研究 中 普通 用 户 所 使 用 的 热 
门 标签 进行 对 比 发 现 ,专业 领域 的 用 户 更 倾向 于 用 专 
业 性 较 强 的 标签 词语 来 描述 自己 的 专业 领域 , 而 不 是 
直接 在 标签 推荐 页 面 不 加 思考 地 选择 热门 推荐 标签 。 
4.2 ”专业 领域 微 博 用 户 标 签 与 博文 相关 度 度量 

鉴于 微 博 文本 的 特殊 性 , 现 有 的 主题 模型 并 不 能 
很 好 地 分 析 微 博 的 内 容 ， 本文 没有 采用 关键 词 提 取 的 
方法 进行 标签 与 微 博 内 容 的 匹配 ,而 是 直接 将 标签 与 
微 博 内 容 进 行 语义 匹配 。 对 博文 匹配 结果 进行 统计 ， 
结果 如 图 3 所 示 。 其 中 微 博 和 标签 匹配 率 = 与 用 户 标签 
关联 的 微 博 数 /用 户 所 发 布 的 微 博 总 数 。 


160 
140 
120 
洒 100 
让 80 
还 60 
40 
20 
0 , 国 . 国 ， 
Yo 


DY re ee 


图 3 博文 匹配 结果 统计 图 


从 图 3 可 以 看 出 , 用 户 微 博 和 标签 匹配 率 主要 集 
中 在 70% 以 下 ， 只 有 少数 用 户 的 匹配 率 达 到 70% 以 
上 。760 名 用 户 中 , 有 341 位 用 户 的 微 博 和 标签 匹配 率 
达到 40% 以 上 。 由 此 可 知 , 用 户 标签 与 微 博 内 容 有 一 
定 的 关联 程度 。 

去 除 标签 和 微 博 数 的 影响 ,选取 高 匹配 率 区 间 ( 匹 
配 率 大 于 0.7) 的 用 户 微 博 内 容 和 低 匹 配 率 区 间 ( 匹 配 率 
小 于 0.1) 的 用 户 微 博 内 容 进 行 词 频 统计 。 表 5 为 词语 
出 现 频次 前 20 的 词语 , 以 是 否 与 “自然 语言 处 理 ” 领 域 
相关 来 判断 词语 的 专业 性 ， 发 现 高 匹配 率 区 间 Top20 
中 词语 的 专业 相关 度 要 高 于 低 匹配 率 区 间 。 同 时 ,可 
以 看 出 高 匹配 率 区 间 的 词语 频次 要 远 高 于 低 匹配 率 区 
间 ， 根 据 博文 中 词语 频次 统计 按 降序 排列 ， 分 别 取出 
现 次 数 Top100, Top500, Top1000 的 词语 进行 观测 , 均 


可 以 看 出 ,这 些 高 频 词 多 为 和 “自然 语言 处 理 ” 领 
域 相关 的 专业 性 术语 , 而 像 大 众 性 的 标签 描述 只 出 现 


呈现 出 以 上 规律 ,同一 词语 出 现 的 频次 一 定 程度 上 反映 
的 是 微 博 内 容 之 间 的 相似 度 ， 因 此 得 出 高 匹配 率 区 间 
用 户 所 发 微 博 内 容 间 的 相似 性 要 高 于 低 匹 配 率 区 间 。 
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表 5 不 同 匹 配 区 间 微 博 内 容 词 频 Top20 的 分 布 


由 此 可 知 , 影响 力 大 的 用 户 微 博 和 标签 的 关联 程度 要 


高 匹配 率 区 间 低 匹 配 率 区 间 高 于 影响 力 小 的 用 户 。 
词语 ”频次 词语 频次 词语 频次 词语 频次 4500 
技术 4928 搜索 2893 喜欢 1811 孩子 1280 3600 
数据 4767 时 间 2892 时 间 1758 技术 1193 四 2700 
公司 4311 语言 2800 美国 1663 学 习 1069 洁 1800 
课程 ”4199 文章 2788 世界 1547 数据 ”1043 和 900 
户 站 苹果 
用 4166 百度 2745 手机 1 524 RE 1 025 0 i ih Db dd 
同学 ”3345 应 用 2714 老师 1485 同学 1014 Syoovo Yo oNlD 
人 宇 自 / 狼 百 学 牛 人 
老师 3286 信息 2706 公司 1417 学 生 1006 图 4 用 户 粉丝 数 与 匹配 率 关 系 图 
学 习 ”3089 翻译 2638 生活 1384 应 用 910 
玖 kA 村 全 
机 器 学 习 3052 大 数据 2446 用 户 1323 小 时 868 选取 图 4 中 匹配 率 大 于 0.6 和 小 于 0.2 的 用 户 标签 


进行 分 析 , 按照 标签 词语 的 专业 性 程度 分 为 专业 性 词 
汇 和 非 专 业 性 词汇 两 类 。 通 过 数据 调查 发 现 匹配 率 大 


] 于 0.6 的 专业 性 标签 词汇 占 比 为 81%， 匹配 率 小 于 0.2 
QJ ”和 Top1000 中 的 专业 性 词语 的 数量 ， 从 两 个 区 间 专 业 


的 专业 性 标签 词汇 占 比 为 65%。 同 时 发 现 匹配 率 小 于 
三 。 性 词汇 比例 分 布 情 次 可 以 看 到 ， 高 严 配 尝 区 间 用 户 专 。 0.2 的 非 专业 词汇 中 有 非常 多 的 网 络 用 语 , 而 在 匹配 
业 性 词汇 的 分 布 呈现 逐渐 递减 的 趋势 ， 也 就 是 说 该 区 。 率 天 于 0.6 的 非 专业 词汇 中 只 发 现 了 一 个 .例如 , 在 描 
二 间 的 词语 频次 分 布 越 第 前 专业 性 词汇 越 多 ， 而 低 匹配 。 述 各 序 员 这 个 职业 时 出 现 了 .了 女 靖 英 、 欣 盟 女 民工 
站 率 区 辣 总 体 哇 现 均 衡 状态 说明 该 区 问 词 请 分 布 较 为 。 码 农 小 伙伴 、 软 件 攻 城 师 等 词汇 。 不 同 匹配 区 间 标签 


离散 。 通 过 对 这 些 区 间 用 户 所 发 微 博 内 容 的 观察 ,发 


算法 2999 NLP 2405 北京 1323 百度 863 


表 6 为 词语 频次 统计 表 中 Top20, Top100, Top500 


se 人 机 词汇 对 比如 表 7 所 示 : 
现 高 匹配 率 区 间 的 用 户 所 发 微 博 内 容 多 为 科研 信息 、 0 
行业 见闻 或 者 资讯 分 享 ; 而 低 匹配 率 区 间 的 用 户 所 发 Ce nd ee a ede 
微 博 内 容 多 为 生活 状态 、 感 情 打 发 , 微 博 内 容 丰 富 多 类 别 。 匹配 率 大 于 0.6 匹配 率 小 于 0.2 
羊 ， 这 就 言 这 区 间 的 专业 性 词 ， ,五 喜欢 在 家 吃饭 吃 货 食 色 性 也 吃 吃 
和 这 就 时 致 高 号 配 率 区 间 的 专业 性 词汇 占 比 和 词语 人 
频次 都 高 于 低 于 匹配 率 区 间 。 好 者 
表 6 不 同比 例 区 间 微 博 内 容 词 频 分 布 追星 类 湖人 科比 业余 菲 迷 苏轼 粉 五 月 天 fans 巴萨 
Top20 Top100 Top500 Top1000 下 迷 
比较 项 i 视频 类 ”电影 美剧 ”美剧 重症 患者 看 电影 动漫 控 
已 [可 ~ 已 A [6 ~ 
专业 词 ; 9 2 41 18 175 85 29%6 155 通过 对 比 发 现 , 匹配 率 大 于 0.6 的 用 户 标签 词汇 


专业 词 占 比 45% 10% 41% 18% 35% 17% 29.6% 15.5% 


(1) 原因 分 析 
用 户 标签 数 和 所 发 微 博 数 是 影响 匹配 结果 的 直接 


除了 一 个 “天 然 萌 "其余 全 部 为 传统 汉语 词汇 。 而 匹配 
率 小 于 0.2 的 168 个 非 专业 词汇 中 有 70 个 为 网 络 用 语 
或 者 描述 性 的 短 句 。 由 此 可 知 ,专业 性 词汇 的 占 比 再 
因素 ,对 用 户 的 标签 数 、 所 发 微 博 数 进行 观察 分 析 发 ”结合 非 专业 性 词汇 的 特性 在 一 定 程度 上 能 够 反映 用 户 
现 : 匹配 率 为 0 的 51 位 用 户 里 , 有 27 位 用 户 的 只 有 1 ”的 专业 性 程度 ,专业 性 程度 高 的 用 户 微 博 和 标签 的 关 
个 标签 , 其 余 用 户 所 发 微 博 数 均 小 于 40; 将 标签 数 小 联 程 度 要 高 于 专业 性 程度 低 的 用 户 。 

于 5, 微 博 数 小 于 100 的 用 户 去 除 , 得 到 用 户 粉 丝 数 在 (2) 不 同 匹 配 标 签 集 的 匹配 结果 分 析 

不 同 匹 配 区 间 上 的 分 布 情况 , 如 图 4 所 示 , 虽然 整体 将 用 户 原 标签 以 及 扩充 后 的 标签 集 分 别 与 博文 进 
上 没有 呈现 逐渐 增长 的 趋势 , 但 可 以 看 出 匹配 率 大 于 ” 行 匹 配 , 结果 如 图 5 所 示 。 与 扩充 后 的 标签 集 的 匹配 


0.6 的 用 户 粉 丝 平均 数 要 明显 高 于 小 于 0.6 的 。 粉丝 数 
代表 用 户 的 影响 力 , 也 可 以 反映 出 用 户 的 活跃 程度 ， 


现代 图 书 情报 技术 


比例 相 比 ， 原 标签 与 博文 的 匹配 率 较 低 ， 主 要 集中 在 
10% 以 下 。 可 以 看 出 , 原 标签 和 用 户 所 发 微 博 有 一 定 关 
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联 ， 只 是 相关 联 的 微 博 条 数 较 少 。 主 要 由 于 用 户 标 签 
最 多 只 有 10 个 词语 ,表达 能 力 非常 有 限 , 这 也 从 侧面 
说 明 对 标签 进行 语义 扩充 的 合理 性 。 


600 
i 国 原 标签 
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图 5 不 同 标签 集 的 匹配 结果 对 比 


以 上 结果 表明 , 用 户 原 标签 与 博文 有 一 定 的 相关 
度 , 但 是 对 标签 进行 扩充 后 的 相关 度 要 远 高 于 原 标签 
的 相关 度 。 本 文通 过 编辑 距离 算法 和 扩充 标签 词 集 实 
现 词 语 与 博文 内 容 的 匹配 , 不 是 将 原 标 签 与 博文 进行 
直接 字面 匹配 ,而 是 实现 了 标签 与 博文 的 语义 匹配 ， 
得 到 基于 语义 的 匹配 结果 要 优 于 基于 原 标 签 的 匹配 结 
果 , 使 得 结果 更 加 合理 。 


S 结 语 


本 文 以 新 浪 微 博 中 学 术 型 用 户 微 博 为 例 , 采集 微 
博 用 户 的 用 户 标签 和 微 博 内 容 数据 ,利用 这 些 数据 对 
自然 语言 处 理 领域 微 博 用 户 添 加 标签 的 行为 特点 和 标 
签 内 容 进行 分 析 , 结果 表明 专业 领域 的 用 户 更 乐意 为 
自己 添加 尽 可 能 多 的 标签 ,也 更 倾向 于 使 用 专业 性 较 
强 的 词语 作为 自己 的 标签 ; 利用 这 些 数据 进行 用 户 标 
签 与 微 博 内 容 关 联 度 统计 分 析 表 明 : 在 新 浪 微 博 平台 
上 , 学 术 领 域 微 博 用 户 标签 和 用 户 微 博 内 容 具 有 一 定 
的 相关 度 。 同 时， 除了 微 博 数 和 标签 数 外 , 用 户 的 影响 
力 、 专 业 性 程度 都 会 对 用 户 标 签 和 用 户 微 博 内 容 相关 
度 产生 影响 。 

通过 本 文 的 研究 , 建议 一 般 微 博 用 户 能 够 像 学 术 
领域 的 用 户 一 样 重视 自己 定义 的 标签 , 避免 随意 地 给 
自己 打上 热门 标签 , 或 者 不 愿意 花费 时 间 为 自己 打 标 
签 。 同 时 , 微 博 标签 推荐 系统 可 考虑 将 用 户 微 博 内 容 
作为 标签 推荐 的 重要 数据 来 源 ,为 用 户 提 供 更 有 针对 
性 的 个 性 化 标签 。 反 之 亦 然 , 在 对 微 博 内 容 进 行 主题 
分 析 时 , 可 以 借助 于 微 博 用 户 标签 优化 博文 主题 发 现 
和 分 析 结 果 。 
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在 未 来 的 研究 中 , 将 进一步 研究 用 户 标签 在 微 博 
主题 推荐 、 微 博信 息 检 索 .用 户 建 模 等 方面 的 应 用 , 同 
时 扩大 研究 对 象 的 领域 和 社会 化 应 用 平台 。 
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User Tags and Microblog Posts: Case Study of Sina Weibo 


Zhu Ling Xue Chunxiang Zhang Chengzhi Fu Zhu 
(School of Economics and Management, Nanjing University of Science and Technology, Nanjing 210094, China) 


Abstract: [Objective] This study aims to explore the relationship between the user tags and microblog post topics, with 
the purpose of improving subject identification and automatic tag recommendation services. [Methods] We first used 
crawlers to retrieve user profiles and posts in the field of ”natural language processing”from the Sina Weibo. Second, 
extracted words from the posts and semantically extended user tags. Finally, matched the tags and posts by the edit 
distance algorithm. [Results] There was correlation between user tags and posts in natural language processing field. 
[Limitations] We only studied one academic field and the Sina Weibo, more research is needed in the future to 
generalize the results. [Conclusions] The tag recommendation System can use microblog posts as an important source 
to provide more personalized services, which in turn will improve the microblog content analysis. 


Keywords: Subject analysis of posts Usertags Correlation measure Subjectindexing User modeling 
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